Loading...
机构名称:
¥ 1.0

本文介绍了强化学习行为套件(简称 bsuite)。bsuite 是一组经过精心设计的实验,旨在研究强化学习 (RL) 代理的核心功能,其目标有两个。首先,收集清晰、信息丰富且可扩展的问题,这些问题可以捕捉通用高效学习算法设计中的关键问题。其次,通过代理在这些共享基准上的表现来研究代理行为。为了补充这项工作,我们开源了 github.com/deepmind/bsuite,它可以自动评估和分析 bsuite 上的任何代理。这个库有助于对 RL 中的核心问题进行可重复和可访问的研究,并最终设计出更优秀的学习算法。我们的代码是 Python,易于在现有项目中使用。我们提供了 OpenAI Baselines、Dopamine 以及新参考实现的示例。展望未来,我们希望纳入更多来自研究界的优秀实验,并承诺由著名研究人员组成的委员会定期审查 bsuite。

强化学习行为套件 | David Silver

强化学习行为套件 | David SilverPDF文件第1页

强化学习行为套件 | David SilverPDF文件第2页

强化学习行为套件 | David SilverPDF文件第3页

强化学习行为套件 | David SilverPDF文件第4页

强化学习行为套件 | David SilverPDF文件第5页

相关文件推荐